Series

작성자

익명

작성일

2026.04.27

조회수

버전

Series

개요

데이터 과학 및 분석 분야에서 Series는 주로 파이썬의 pandas 라이브러리에서 제공하는 1 차원 라벨링된 배열을 의미합니다. R 언어의 데이터 구조에서 영감을 받아 설계되었으며, 시계열 데이터, 카테고리 데이터, 수치형 데이터 등 다양한 유형의 데이터를 효율적으로 저장하고 처리하는 데 핵심적으로 사용됩니다. 데이터 과학 워크플로우에서 [DataFrame](/doc/%EA%B8%B0%EC%88%A0/%EB%8D%B0%EC%9D%B4%ED%84%B0%EA%B3%BC%ED%95%99/%EB%8D%B0%EC%9D%B4%ED%84%B0%EA%B5%AC%EC%A1%B0/DataFrame)과 함께 가장 기초적이면서도 강력한 데이터 구조로 자리 잡고 있으며, 데이터 정제, 탐색적 분석, 머신러닝 전처리 등 다양한 단계에서 필수적으로 활용됩니다.

주요 특징

1 차원 구조: 단일 열(column) 또는 행(row)에 해당하는 데이터를 표현합니다.
라벨 기반 인덱싱: 정수 위치뿐만 아니라 사용자 정의 라벨(문자열, 날짜, UUID 등)을 인덱스로 사용할 수 있어 가독성과 유연성이 높습니다.
이질적 데이터 지원: 한 번의 Series 객체 내에 정수, 실수, 문자열, 불리언 등 서로 다른 데이터 타입을 포함할 수 있습니다.
벡터화 연산: NumPy 기반의 빠른 산술 및 논리 연산을 지원하며, 누락된 값(NaN) 처리 기능이 내장되어 있습니다.
메타데이터 보존: 생성, 변환, 필터링 과정에서 인덱스 정보와 데이터 타입이 자동으로 추적되어 데이터 과학 파이프라인의 안정성을 높입니다.

생성 및 초기화

pandas.Series는 다양한 방법으로 생성할 수 있습니다. 주요 생성 패턴은 다음과 같습니다.

import pandas as pd
import numpy as np

# 리스트에서 생성 (기본 인덱스는 0부터 시작)
s1 = pd.Series([10, 20, 30, 40])

# 딕셔너리에서 생성 (키가 인덱스, 값이 데이터가 됨)
s2 = pd.Series({'A': 100, 'B': 200, 'C': 300})

# 스칼라 값으로 생성 (지정된 길이만큼 값이 반복됨)
s3 = pd.Series(5, index=['x', 'y', 'z'])

# NumPy 배열에서 생성
s4 = pd.Series(np.array([1.1, 2.2, 3.3]))

# 인덱스 명시적 지정
s5 = pd.Series([10, 20, 30], index=['row1', 'row2', 'row3'])

인덱싱과 슬라이싱

Series 는 위치 기반(iloc) 과 라벨 기반(loc) 인덱싱을 모두 지원합니다. 이는 데이터 과학에서 특정 관측치나 조건에 맞는 데이터를 빠르게 추출하는 데 필수적입니다.

접근 방식	설명	예시
`loc[]`	라벨 기반 접근 (인덱스 값 기준)	`s.loc['A']`
`iloc[]`	정수 위치 기반 접근 (0부터 시작)	`s.iloc[0]`
슬라이싱	범위 기반 추출 (시작 포함, 끝 미포함)	`s[1:3]`
조건부 필터링	불리언 배열 사용	`s[s > 20]`
다중 라벨 접근	리스트로 인덱스 전달	`s.loc[['A', 'C']]`

연산 및 활용

Series 는 수학 연산, 통계 분석, 데이터 변환 등 다양한 작업에 활용됩니다.

산술 연산: +, -, *, / 등을 적용하면 요소별(element-wise) 연산이 자동으로 수행됩니다. 인덱스가 일치하지 않는 Series 간 연산 시 NaN이 반환되며, 이는 결측치 처리 로직과 자연스럽게 연결됩니다.
통계 함수: mean(), median(), std(), describe() 등을 통해 기술 통계량을 빠르게 계산합니다.
데이터 정제: dropna(), fillna(), astype() 등을 활용하여 누락값 처리 및 타입 변환을 수행합니다.
시계열 처리: 인덱스를 [DatetimeIndex](/doc/%EA%B8%B0%EC%88%A0/%EB%8D%B0%EC%9D%B4%ED%84%B0%EA%B3%BC%ED%95%99/%EC%9D%B8%EB%8D%B1%EC%8A%A4%ED%83%80%EC%9E%85/DatetimeIndex)로 설정하면 시간 단위 재샘플링(resampling), 이동 평균(moving average), 기간 변환 등 시계열 분석이 용이해집니다.

DataFrame 및 NumPy 배열과의 비교

데이터 과학에서 Series 는 종종 DataFrame 과 NumPy 배열과 비교됩니다. 각 구조의 특징은 다음과 같습니다.

특징	Series	DataFrame	NumPy 배열
차원	1 차원	2 차원	1~N 차원
인덱스	라벨/정수 기반	열/행 라벨 기반	정수 위치만
데이터 타입	이질적 가능	열별 타입 상이	동질적 필수
주요 용도	단일 변수 분석	표 형식 데이터 관리	고성능 수치 연산
메모리 효율	중간	낮음 (메타데이터 오버헤드)	높음

참고 자료 및 관련 문서

pandas 공식 문서: Series
McKinney, W. (2017). Python for Data Analysis (2nd ed.). O'Reilly Media.
관련 문서: DataFrame, Index, NumPy, 시계열 분석, 데이터 정제, 결측치 처리

📝 마크다운 원본

이 문서의 마크다운 원본 내용입니다.

# Series

## 개요
데이터 과학 및 분석 분야에서 **Series**는 주로 파이썬의 `pandas` 라이브러리에서 제공하는 1 차원 라벨링된 배열을 의미합니다. R 언어의 데이터 구조에서 영감을 받아 설계되었으며, 시계열 데이터, 카테고리 데이터, 수치형 데이터 등 다양한 유형의 데이터를 효율적으로 저장하고 처리하는 데 핵심적으로 사용됩니다. 데이터 과학 워크플로우에서 `DataFrame`과 함께 가장 기초적이면서도 강력한 데이터 구조로 자리 잡고 있으며, 데이터 정제, 탐색적 분석, 머신러닝 전처리 등 다양한 단계에서 필수적으로 활용됩니다.

## 주요 특징
- **1 차원 구조**: 단일 열(column) 또는 행(row)에 해당하는 데이터를 표현합니다.
- **라벨 기반 인덱싱**: 정수 위치뿐만 아니라 사용자 정의 라벨(문자열, 날짜, UUID 등)을 인덱스로 사용할 수 있어 가독성과 유연성이 높습니다.
- **이질적 데이터 지원**: 한 번의 Series 객체 내에 정수, 실수, 문자열, 불리언 등 서로 다른 데이터 타입을 포함할 수 있습니다.
- **벡터화 연산**: NumPy 기반의 빠른 산술 및 논리 연산을 지원하며, 누락된 값(NaN) 처리 기능이 내장되어 있습니다.
- **메타데이터 보존**: 생성, 변환, 필터링 과정에서 인덱스 정보와 데이터 타입이 자동으로 추적되어 데이터 과학 파이프라인의 안정성을 높입니다.

## 생성 및 초기화
`pandas.Series`는 다양한 방법으로 생성할 수 있습니다. 주요 생성 패턴은 다음과 같습니다.

```python
import pandas as pd
import numpy as np

# 리스트에서 생성 (기본 인덱스는 0부터 시작)
s1 = pd.Series([10, 20, 30, 40])

# 딕셔너리에서 생성 (키가 인덱스, 값이 데이터가 됨)
s2 = pd.Series({'A': 100, 'B': 200, 'C': 300})

# 스칼라 값으로 생성 (지정된 길이만큼 값이 반복됨)
s3 = pd.Series(5, index=['x', 'y', 'z'])

# NumPy 배열에서 생성
s4 = pd.Series(np.array([1.1, 2.2, 3.3]))

# 인덱스 명시적 지정
s5 = pd.Series([10, 20, 30], index=['row1', 'row2', 'row3'])
```

## 인덱싱과 슬라이싱
Series 는 위치 기반(`iloc`) 과 라벨 기반(`loc`) 인덱싱을 모두 지원합니다. 이는 데이터 과학에서 특정 관측치나 조건에 맞는 데이터를 빠르게 추출하는 데 필수적입니다.

| 접근 방식 | 설명 | 예시 |
|---|---|---|
| `loc[]` | 라벨 기반 접근 (인덱스 값 기준) | `s.loc['A']` |
| `iloc[]` | 정수 위치 기반 접근 (0부터 시작) | `s.iloc[0]` |
| 슬라이싱 | 범위 기반 추출 (시작 포함, 끝 미포함) | `s[1:3]` |
| 조건부 필터링 | 불리언 배열 사용 | `s[s > 20]` |
| 다중 라벨 접근 | 리스트로 인덱스 전달 | `s.loc[['A', 'C']]` |

## 연산 및 활용
Series 는 수학 연산, 통계 분석, 데이터 변환 등 다양한 작업에 활용됩니다.

- **산술 연산**: `+`, `-`, `*`, `/` 등을 적용하면 요소별(element-wise) 연산이 자동으로 수행됩니다. 인덱스가 일치하지 않는 Series 간 연산 시 `NaN`이 반환되며, 이는 결측치 처리 로직과 자연스럽게 연결됩니다.
- **통계 함수**: `mean()`, `median()`, `std()`, `describe()` 등을 통해 기술 통계량을 빠르게 계산합니다.
- **데이터 정제**: `dropna()`, `fillna()`, `astype()` 등을 활용하여 누락값 처리 및 타입 변환을 수행합니다.
- **시계열 처리**: 인덱스를 `DatetimeIndex`로 설정하면 시간 단위 재샘플링(resampling), 이동 평균(moving average), 기간 변환 등 시계열 분석이 용이해집니다.

## DataFrame 및 NumPy 배열과의 비교
데이터 과학에서 Series 는 종종 DataFrame 과 NumPy 배열과 비교됩니다. 각 구조의 특징은 다음과 같습니다.

| 특징 | Series | DataFrame | NumPy 배열 |
|---|---|---|---|
| 차원 | 1 차원 | 2 차원 | 1~N 차원 |
| 인덱스 | 라벨/정수 기반 | 열/행 라벨 기반 | 정수 위치만 |
| 데이터 타입 | 이질적 가능 | 열별 타입 상이 | 동질적 필수 |
| 주요 용도 | 단일 변수 분석 | 표 형식 데이터 관리 | 고성능 수치 연산 |
| 메모리 효율 | 중간 | 낮음 (메타데이터 오버헤드) | 높음 |

## 참고 자료 및 관련 문서
- [pandas 공식 문서: Series](https://pandas.pydata.org/docs/reference/series.html)
- McKinney, W. (2017). *Python for Data Analysis* (2nd ed.). O'Reilly Media.
- 관련 문서: `DataFrame`, `Index`, `NumPy`, `시계열 분석`, `데이터 정제`, `결측치 처리`

AI 생성 콘텐츠 안내

이 문서는 AI 모델(qwen3.6-35b-a3b@iq4_xs)에 의해 생성된 콘텐츠입니다.

주의사항: AI가 생성한 내용은 부정확하거나 편향된 정보를 포함할 수 있습니다. 중요한 결정을 내리기 전에 반드시 신뢰할 수 있는 출처를 통해 정보를 확인하시기 바랍니다.

위키너와나

Series

Series

개요

주요 특징

생성 및 초기화

인덱싱과 슬라이싱

연산 및 활용

DataFrame 및 NumPy 배열과의 비교

참고 자료 및 관련 문서

📝 마크다운 원본

🤔 AI의 사고 과정

이 AI 생성 콘텐츠가 도움이 되었나요?